O recurso gmlinktolerance monitora os tempos de resposta dos relacionamentos do
Global Mirror em modo sem ciclo. É possível usar o comando da CLI
chsystem ou o GUI de gerenciamento para configurar o recurso gmlinktolerance. O recurso gmlinktolerance representa o número de segundos que o
sistema primário tolera tempos de resposta lentos do sistema secundário.
Se a resposta insatisfatória se estender além da tolerância especificada, um erro 1920 será
registrado. Além disso, um ou mais relacionamentos de Global Mirror são automaticamente interrompidos para
proteger os hosts de aplicativos no site primário. Durante a operação normal, os hosts de aplicativos
observam um impacto mínimo nos tempos de resposta porque o recurso Global Mirror
usa a replicação assíncrona. No entanto, se as operações de
Global Mirror experimentarem
tempos de resposta degradados do sistema secundário por um tempo estendido, as operações de E/S se
enfileirarão no sistema primário. Essa situação resulta em um tempo de resposta estendido para hosts de aplicativos. Nesse caso, o recurso
gmlinktolerance para os relacionamentos do Global Mirror e o tempo de resposta dos hosts de aplicativos
retornam ao normal. Após ocorrer um erro 1920, os volumes auxiliares do Global Mirror não ficam mais no estado consistent_synchronized até que você corrija a causa do erro e reinicie os relacionamentos do Global Mirror. Por esse motivo, assegure-se de monitorar o sistema para rastrear quando esse erro ocorre.
É possível desativar o recurso
gmlinktolerance configurando o valor gmlinktolerance para 0 (zero). No entanto, o recurso gmlinktolerance não
poderá proteger os aplicativos de tempos de resposta estendidos se ele estiver desativado. Pode ser apropriado desativar o recurso
gmlinktolerance nas seguintes circunstâncias:
- Durante as janelas de manutenção de rede, nas quais é esperado um desempenho comprometido dos componentes de rede e os hosts de aplicativos podem resistir aos tempos de resposta dos volumes do Global Mirror.
- Durante períodos em que os hosts de aplicativos podem tolerar tempos de reposta estendidos, é esperado que o recurso
gmlinktolerance pare os relacionamentos do Global Mirror. Por exemplo, se você
estiver testando usando um gerador de E/S que está configurado para estressar o armazenamento
de backend, o recurso gmlinktolerance poderá detectar a alta latência e parar os relacionamentos
do Global Mirror. Desativar o gmlinktolerance impede isso
com o risco de expor o host de teste aos tempos de resposta estendidos.
Diagnosticando e corrigindo erros 1920
Um
erro 1920 indica que um ou mais dos componentes de rede não podem fornecer o desempenho que é
necessário para os hosts de aplicativos. Esse erro
pode ser temporário (por exemplo, um resultado da atividade de manutenção) ou permanente (por exemplo, um resultado de uma
falha de hardware ou uma carga de trabalho inesperada de E/S do host).
Se o erro 1920 foi precedido pelo evento informativo 985004,
Atraso máximo de replicação foi excedido, o sistema pode não localizar um caminho para
o disco no sistema remoto dentro do valor de tempo limite de atraso máximo de replicação. Investigue o
sistema remoto para localizar e reparar quaisquer caminhos degradados. Também é possível usar
o comando lssystem para visualizar o valor maxreplicationdelay. Se
o valor for muito baixo, use o comando chsystem para especificar um novo valor
de maxreplicationdelay.
Se estiverem ocorrendo outros erros 1920, configure uma
ferramenta de análise, como o IBM® Spectrum Control, e
certifique-se de que ele esteja configurado corretamente e as estatísticas de monitoramento quando o problema ocorrer. Configure sua
ferramenta de análise de desempenho de rede para o intervalo de coleta de estatísticas mínimo disponível. Para um
sistema
IBM Spectrum Control, o intervalo mínimo é
de 5 minutos. Se ocorrerem
diversos erros 1920, faça primeiro o diagnóstico da causa do erro mais antigo. As perguntas
a seguir podem ajudá-lo a determinar a causa do erro:
- A manutenção estava ocorrendo no momento do erro?
A manutenção pode incluir a substituição de um
disco físico do sistema de armazenamento, a atualização do firmware do sistema de armazenamento ou a conclusão de uma atualização de código em
um do
. Antes de reiniciar os relacionamentos do
Global Mirror no
modo sem ciclo, deve-se esperar até que o procedimento de manutenção seja concluído.
Caso contrário, outro erro 1920 será emitido porque o sistema ainda não retornou para um estado estável com bom desempenho.
- Havia algum erro não corrigido no sistema de origem ou de destino?
Se
sim, analise-os para determinar se eles são a razão deste erro. Em particular, determine se os erros estão relacionados ao volume ou MDisks que estão sendo usados no relacionamento ou se os erros reduziram o desempenho do sistema de destino. Assegure-se de que os erros sejam corrigidos antes de
reiniciar o relacionamento Global Mirror.
- O link de longa distância está sobrecarregado?
Se o link não for capaz de sustentar
o pico de carga de trabalho de Global Mirror de curto prazo, um erro
1920 poderá ocorrer. Conclua
as verificações a seguir para determinar se o link de longa distância está sobrecarregado:
- Examine o rendimento total de gravação do volume auxiliar do Global Mirror antes de os relacionamentos do Global Mirror serem interrompidos. Se esse volume for aproximadamente igual
à largura da banda do link, o link poderá estar sobrecarregado. Esse problema pode ocorrer devido a operações de E/S do host de aplicativos ou a uma combinação de E/S do host e atividades de cópia (sincronização) de plano de fundo.
- Examine o rendimento total de gravação do volume de origem do Global Mirror antes de os relacionamentos do Global Mirror serem interrompidos. Este valor
representa as operações de E/S que estão sendo concluídas pelos hosts de aplicativos. Se essas
operações estiverem se aproximando da largura da banda do link,
reduza as operações de E/S que o aplicativo está tentando concluir ou use o Global Mirror para copiar menos volumes. Se os discos auxiliares mostrarem significativamente mais operações de E/S de gravação do que os volumes de origem, há um alto nível de cópia em plano de fundo. Diminua o parâmetro de taxa de cópia em plano de fundo da parceria do Global Mirror para colocar a largura da banda de E/S do aplicativo total
e a taxa de cópia em plano de fundo dentro das capacidades do link.
- Examine o rendimento total de gravação do volume de origem do Global Mirror depois que os relacionamentos do Global Mirror foram interrompidos. Se o rendimento de gravação aumentar 30% ou mais quando os
relacionamentos forem interrompidos, os hosts de aplicativos estarão
tentando concluir mais operações de E/S do que o link pode sustentar. Embora os relacionamentos de Global Mirror estejam
ativos, o link sobrecarregado faz com que haja tempos
de resposta maiores para o host de aplicativos, o que diminui o rendimento que ele pode atingir. Depois que os relacionamentos do Global Mirror param, o host de aplicativos observa tempos de resposta menores. Nesse caso, a largura da banda do link deve ser aumentada, a taxa de E/S do host do aplicativo deve ser diminuída ou menos volumes devem ser copiados usando o Global Mirror.
- Os sistemas de armazenamento no sistema secundário estão sobrecarregados?
Se as operações de E/S do aplicativo
não puderem continuar na taxa que é necessária para o host de aplicativos porque um ou mais
MDisks está fornecendo serviço insatisfatório ao sistema, ocorrerá um erro 1920.
Se os requisitos do
sistema de armazenamento de backend forem seguidos, o erro
poderá ocorrer devido a uma diminuição do desempenho do
sistema de armazenamento. Um tempo de resposta para um MDisk maior que 50 ms ou mais repentinamente individual ou um tempo de
resposta acima de 100 ms indica um problema. Conclua as
verificações a seguir para determinar se os
sistemas de armazenamento estão sobrecarregados:
- Verifique o sistema de armazenamento em busca
de condições de erro, como erros de mídia, disco físico com falha
ou atividades associadas, como a reconstrução de RAID. Corrija quaisquer problemas e, em seguida, reinicie os
relacionamentos do
Global Mirror.
- Se não ocorrer nenhum erro, determine se o sistema de armazenamento secundário pode processar o nível
necessário de operações de E/S do host de aplicativos. Talvez seja possível melhorar o desempenho do sistema de armazenamento incluindo mais discos físicos em uma matriz, alterando o nível do RAID da matriz, alterando as configurações de cache do sistema de armazenamento, assegurando que a bateria de cache esteja operacional ou alterando outros parâmetros de configuração específicos do
sistema de armazenamento.
- Os sistemas de armazenamento no sistema primário
estão sobrecarregados?
Analise o desempenho do armazenamento de backend primário usando as mesmas etapas que
para o armazenamento de backend secundário. Se o desempenho for ruim, limite o número de operações
de E/S que podem ser concluídas pelos hosts de aplicativos. Monitore o armazenamento de backend no local primário, mesmo se os relacionamentos do
Global Mirror
não foram afetados. Se o desempenho ruim continuar por um período
prolongado, um erro 1920 ocorrerá
e os relacionamentos Global Mirror serão interrompidos.
- Um de seus sistemas está sobrecarregado?
Se o total dessas duas estatísticas para qualquer um dos sistemas estiver acima de 1 milissegundo, o
sistema poderá estar enfrentando um carregamento de E/S alto. Além disso, verifique a utilização da CPU do nó do sistema, já que as taxas maiores que 50% também podem contribuir para o problema. Em qualquer um dos casos, entre em contato com seu Representante de serviços IBM para obter
assistência adicional.
- Você possui operações de
FlashCopy no estado
preparado no sistema secundário?
Se os volumes auxiliares do Global Mirror forem as origens de um mapeamento de FlashCopy, e esse mapeamento estiver no estado preparado por um tempo estendido, o desempenho para esses volumes poderá ser impactado, pois o cache estará desativado. Inicie o mapeamento do FlashCopy para ativar o cache e
melhorar o desempenho em operações de E/S do Global Mirror.